tg-me.com/devopsslib/3631
Last Update:
📋 Чек-лист идеального девопса
Идеальных работников не бывает, но мы собрали большой чек-лист, по которому можно понять, что вы стремитесь быть таким.
• Настроен автоматический деплой на стейдж и прод по тегу или коммиту
• Поддержка однонажаточного деплоя (через Slack, WebUI, CLI)
• Реализован rollback на предыдущую версию деплоя
• Внедрена автоматическая проверка кода перед деплоем (линтеры, тесты, секреты)
• Внедрён preflight checklist перед деплоем (валидаторы, approvals, условия)
• Настроена канареечная поставка (canary deployment) или blue/green
• Проверка конфигураций (YAML, Terraform, Helm) при Pull Request
• CI проверяет, что нет «drift» между IaC и реальной инфраструктурой
• Внедрена проверка секретов в коде (например, через truffleHog, gitleaks)
• Используется policy-as-code (OPA, Conftest) для контроля стандартов
• Настроены дашборды для метрик (CPU, память, latency, ошибок)
• Автоматический алертинг при отклонении от нормы
• Есть лог-агрегация с фильтрацией по сервисам и компонентам
• Подключена трассировка запросов (OpenTelemetry, Jaeger, Zipkin)
• Все секреты хранятся в безопасном хранилище (Vault, AWS Secrets Manager)
• Используется Least Privilege для IAM/доступов
• Автоматизированы security-сканы (Snyk, Trivy, Clair)
• Применяется 2FA и audit logs для ключевых операций
• Настроено автогенерирование документации (например, по API)
• Разработчики могут запускать окружения в изоляции (preview environments)
• Добавлены шаблоны Helm/Compose для локальной разработки
• Внедрены dev-контейнеры или devshell (например, через Nix или Docker)
• Вся инфраструктура в IaC (Terraform, Pulumi, CloudFormation)
• Настроен CI для автоматической валидации/применения изменений в инфраструктуре
• Используется модульная структура IaC-кода (по сервисам/проектам)
• Ведётся аудит изменений инфраструктуры (Terraform Cloud, Atlantis)
• Внедрены регулярные постмортемы и RCA-документы после инцидентов
• Настроен cron-инвентарь / дэшборд со всеми активными джобами
• Автоматизирована проверка сертификатов и их сроков
• Ведётся чёткий on-call ротационный график с алертом и логом действий
• Все пайплайны и инфраструктура документированы в виде wiki / README
• Есть канал в Slack или другой платформе с логами деплоя/событий
• Поддерживается база знаний по инцидентам и FAQ по пайплайнам
• Реализовано логирование критических действий (deploy, scale, restart)